UCSC数据库,全方位巡视一段DNA序列
假设我们通过测序找到了一堆差异基因,我们想知道其中一个从没见过的基因是一个什么样的基因,首先我们可以通过NCBI进行信息查询,但是除此之外,UCSC提供了一些NCBI没有的信息,比如相关的miRNA位点、lncRNA信息等等,所以使用UCSC进行基因信息检索也是非常有必要的。下面我就为大家介绍下在UCSC里基因信息的解读方法。
首先,笔者随机挑选了一个基因,如HSPA1A。在UCSC官方主页上,我们点击Genome Browser,在Search Term里输入HSPA1A。
这里除了可以输入基因名称外,还可以输入mRNA或EST注册号、染色体范围等查找。默认的基因组背景是人,我们也可以在左边的下拉框里选择其他物种的基因组。
搜索出来的结果有很多,我们选择自己想要的数据库进行下一步。一般默认的显示面板里信息有点多,为了方便讲解,我们先隐去其他信息:找到下图红圈的地方,点击hide all,就可以把繁杂的基因信息先隐藏掉。
UCSC基因显示面板是以染色体的起始和终止位点为显示范围,zoom in会放大碱基区域,减少展现出来的区段,zoom out会扩大序列区段,看到周边基因的信息。图中最细的线代表内含子区域,其箭头方向为读码方向,最粗的部分为外显子区域,中间粗细的部分为UTR区域,如本次实例中,内含子箭头向右,则说明红色标注的UTR区域为5'UTR区域。
接下来的,我们可以看到控制面板主要分六大块,每一个大模块上又有很多选项,比如non-coding RNA, CRISPR, ALL SNPs等信息。这些选项默认为hide,除此之外还有4个选项,分别解释为:hide, 不显示;dense, 所有的信息在一条直线里显示出来;full, 每一项都单独占用一条线;pack,介于dense和full之间,合理安排空间展示;squish,和pack类似,但是高度减小一半。我们可以根据自己的需要选择合适的展现方式来查看相关的信息,因为之前已经隐蔽掉了所有信息,所以我们可以一个一个加上去,查看每一个选项所对应的信息含义,这里就不在详说了。
我们也可以把染色体上起始位点和终止位点之间的序列全部下载下来,点击最上面的View → DNA → get DNA 即可下载目标区段的DNA序列。我们也可以通过View → PDF/PS 下载基因显示面板里的信息成pdf文件。
UCSC里有海量的信息,是一个值得你去花时间逗留的好地方~^o^~